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Модель решетки семантических концептов 
для интеллектуального анализа микроблогов 


У роботі запропонована модель решітки семантичних концептів для інтелектуального аналізу повідомлень 
мікроблогів. Показано, що використання цієї моделі є ефективним при аналізі семантичних зв'язків та 
виявленні асоціативних правил для ключових термінів. 

Ключові слова: інтелектуальний аналіз даних, аналіз формальних концептів, мікроблоги, 
семантичні поля. 


Тре тоаєе! ої 5еплапіїс сопсері Іайсе ТЇог Чака пипіп2, ої плісгобіоє5 раз Бееп ргоро5еай їп із ухогК. І 15 5ПОМ/П 
ас Фе ц5е ої (Рі5 плодеі 15 ебесйуе Їог Ше зеплапіїс геіайоп5 апаїузіз апа Гог ре декеспоп ої а55осіайуєе гиіез ої 
Кеу м/огав. 

Кеу у/огдз8: Чака паіпіпе, апаЇузіз ої Гогта! сопсеріє, писгобіоєз, зептапіс Пеїдз. 


В работе предложена модель решетки семантических концептов для интеллектуального анализа сообщений 
микроблогов. Показано, что использование зтой модели зффективно при анализе семантических связей 
и вьіявлениий ассоциативньтх правил для ключевьїх терминов. 

Ключевьг6"е слова: интеллектуальньй анализ данньх, анализ формальньтх концептов, 
микроблоги, семантические поля. 


Постановка проблеми 


Методи сучасного інтелектуального аналізу даних ефективно використовуються 
в обробці контенту веб-ресурсів. Система мікроблогів Тиїйег є одним із популярних 
засобів взаємодії користувачів за допомогою коротких повідомлень (не більше 140 сим- 
волів). Формат таких повідомлень є надзвичайно простий і дозволяє згадувати в тексті 
інших користувачів (наприклад, (Фзегпате) та тематичні групи за допомогою хеш- 
тегів з позначкою Я (наприклад, Н5оїімаге). Повідомлення одночасно надсилаються 
згаданим в них користувачам та тематичним групам. Такий формат дає можливість 
за деяким ключовим словом виявляти повідомлення, які включають в себе це слово, 
а також виявляти користувачів та групи, які мають відношення до тематики, заданої цим 
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ключовим словом. Такі повідомлення також несуть інформацію про взаємозв'язок між 
окремими користувачами та ключовими словами. Для Титіїег-повідомлень характерна 
висока густина тематично значимих ключових слів. Ця особливість зумовлює перс- 
пективність досліджень мікроблогів засобами інтелектуального аналізу та актуальність 
розвитку методів інтелектуального аналізу текстових повідомлень для виявлення семан- 
тичних зв'язків між основними поняттями та тематиками обговорень в мікроблогах. 


Аналіз останніх досліджень та публікацій 


Інтелектуальний аналіз слабо структурованих даних, наприклад, текстових маси- 
вів є однією із складових частин сучасних інформаційних технологій (1), 121. В такому 
аналізі використовують, зокрема, алгоритми пошуку частих множин ознак та асоціа- 
тивних правил, за допомогою яких можна виявити взаємозв'язок між підмножинами 
даних |3-6). Одним з ефективних методів аналізу даних є теорія аналізу формальних 
концептів |2-5|. У цій теорії розглядають відношення об'єктів та їх атрибутів, на основі 
якого будують алгебраїчну решітку формальних концептів. Кожен концепт об'єднує 
множину об'єктів та їх спільних атрибутів. На основі частих множин спільних атри- 
бутів виявляють асоціативні правила, які відображають зв'язки між атрибутами на мно- 
жині аналізованих об'єктів. В роботі |7| використовують теорію аналізу формальних 
концептів для аналізу американських політичних блогів. Актуальним на даний час є 
створення моделі формальних концептів для аналізу мікроблогів, яка б враховувала 
семантичну структуру повідомлень. Для цього доцільно ввести поняття семантичного 
поля, яке б об'єднувало ключові лексеми тематики аналізу. 


Мета статті 


Створимо теоретико-множинну модель повідомлень мікроблогів. Розглянемо мож- 
ливість дослідження повідомлень мікроблогів на основі методів аналізу формальних 
концептів, які базуються на теорії алгебраїчних решіток |2-5). Розглянемо утворення 
семантичних концептів та асоціативних правил. На основі утвореної моделі проаналі- 
зуємо тестовий масив повідомлень системи Ту/ійег. 


Основна частина. Теоретична модель 


Розглянемо модель, яка описує повідомлення мікроблогів, їх словник, користу- 
вачів та тематичні групи. Нехай вибрано деяке ключове слово Ку», яке задає тематику 
повідомлень і є наявне у всіх повідомленнях, наприклад Ку/- з0/їматге". Визначимо 
множину повідомлень мікроблогів: 


ТУубУ | ьо, | Кур є Ти); ї (1) 


Загальний словник аналізованого масиву повідомлень розглянемо як мультимно- 
жину 


уубубою) а п (у) | м; є туу У (2) 


де пу - кількість зустрічань лексеми уу, в повідомленнях аналізованого масиву. 


Оскільки всі повідомлення містять наперед задане ключове слово (в наших досліджен- 
нях це слово «50/Пу/ате»), то такий масив повідомлень буде охоплювати деякий наперед 
заданий семантичний спектр інформації. Введемо узагальнене поняття семантичного 
поля |38). Під семантичним полем будемо розуміти деяку підмножину словника, еле- 
менти якої об'єднані деяким спільним семантичним поняттям. В загальному випадку 
такі поняття можуть об'єднувати ключові слова, які відносяться до підрозділів аналі- 
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зованої тематики. Уведемо множину семантичного поля, в яку входять ключові слова, 
та хеш-теги назв тематичних груп 
Кеууогаз що Кеуурота; 1 (3) 

Множина Кеумотаб, яка відображає задану тематику, може бути сформована на 
основі експертного аналізу, коли експерт формує масив ключових слів, які охоплюють 
напрям досліджень. Семантичне поле може бути також утворене на основі знайдених 
частих множин лексем. Такі множини формуються з наборів лексем, які одночасно 
зустрічаються у повідомленнях з частотою, більшою за деякий заданий поріг. Оче- 
видно, що деяка підмножина масиву частих множин ключових лексем буде відобра- 
жати семантику напрямку досліджень мікроблогів. 

Використовуючи теорію аналізу формальних концептів |2-5|, розглянемо фор- 
мальний контекст як трійку 


кОм (туу 10), Кеушопі ЗТ ) (4) 
де І, - відношення І, с ТУ (оо х Кеуугогаз , яке описує зв'язки повідомлень з 


ключовими лексемами у цих повідомленнях. Вважаємо, що (ти ) -Кеуулога і ) є І, , ЯКЩО 


(Куи 


термін Кеууога ; зустрічається у повідомленні /у/; ) Відношення Ї, можна розгля- 


дати як множину 
й (тур; , Кеуурога з ) | Кеуулома з Є гул) (5) 
Уведемо РР семантичних концептів. Для деяких Ехі С Т у (юю, ті с Кеуурогаз 


визначимо такі відображення: 
Ехі'- і Кеуугога , є Кеуугогаз | тм" є Ехі (ту ,Кеутога |) є І, ) (6) 


Іп'- І дуг) є ТУ/ 7? | Кеуурога , є Пі : (ту/(") | Кеуурога ,) є І, І (7) 


Множина Ехі" описує ключові терміни, які властиві документам множини ЕХІ, 


' 5 і » і , 
а множина Її описує повідомлення, які містять ключові терміни множини Пі. 
Уведемо семантичний концепт як пару 

Сопсері с (Ехі , ті й (8) 


до якої належать повідомлення з множини Ехі с туу (ою) та ключові терміни з мно- 
Жини Пп! с Кеууогаз з такими умовами 


б - Пі, (9) 


Інт'- Ехі. 
Множину Ехі назвемо об'ємом, а Іпі - змістом семантичного концепту Сопсері . 


В семантичному контексті К сно утворюється частково впорядкована множина семан- 


тичних концептів 
ТУ?) Кеуурогаї, 1, ) з | Сопсері, з (Ех Іті, Б (10) 
Семантичний концепт 
Сопсері і- (Ехі у ти) (11) 
є менш загальним за об'ємом, чим концепт 


Сопсеріз- (Ехі», Іпі» ) (12) 
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тобто виконується умова 
(Екі, І) « (Ехі», Іпіз), (13) 
якщо 
ЕхпосоЕхі» «з ті о піз. (14) 


У цьому випадку концепт Сопсері» можна вважати узагальненням концепту 
Сопс ері. Семантичний концепт можна розглядати як підматрицю семантичного кон- 


тексту, яка повністю заповнена одиницями. Решітку концептів часто відображають 


гу(Ки/) 


за допомогою діаграм Гассе. В аналізі семантичного контексту К кожний елемент 


діаграми представляє семантичний концепт. Такі діаграми відображають внутрішню 
семантичну структурну організацію повідомлень користувачів та відповідних їм груп 
ключових термів. 

Розглянемо поняття порядкового ідеалу та фільтра для деякої частково впоряд- 
кованої множини (Р, 2). Порядковим ідеалом називають підмножину / с Р, для якої 


мхе/,уучхоігує/. (15) 
Порядковим фільтром називають підмножину Е с Р, для якої 
ухеЕкКугРгхіуєї,. (16) 


Використання понять порядкового ідеалу та фільтра може бути ефективним в 
аналізі решітки семантичних концептів. Порядковим ідеалом деякого концепту будуть 
концепти, які пов'язані з ним на діаграмі Гассе і знаходяться нижче нього, включаючи 
концепт, який відповідає інфімуму решітки. Порядковим фільтром деякого концепту 
є множина пов'язаних з ним концептів, які знаходяться вище нього в решітці, включа- 
ючи концепт, який відповідає супремуму решітки. Зміст деякого концепту є підмно- 
жиною змістів концептів, які належать до його порядкового ідеалу. З іншої сторони, 
об'єднання змістів концептів, які утворюють порядковий фільтр деякого концепту, 
утворює зміст цього концепту. Інформативним для аналізу є також розгляд об'єд- 
нання порядкового фільтра та ідеалу. Множина змістів такого об'єднання утворює 
деяке семантичне поле, яке відображає множину взаємопов'язаних понять. В одній 
решітці може знаходитись декілька таких незалежних об'єднань порядкових ідеалів 
та фільтрів. Отже, одним з методів формування семантичних полів є пошук множини 
змістів концептів деякого об'єднання ідеалу та фільтра заданого формального контексту. 

На основі розрахованої решітки семантичних концептів можна виявити асоціа- 
тивні правила, які відображають семантичні структурні зв'язки між ключовими словами. 


Під асоціативним правилом деякого контексту К пики) з | туу (и) Кеуурогаз, І З будемо 
розуміти вираз 

А-» В, 42,В с Кеууогаз . (17) 

Підмножину А називають передумовою, а В - наслідком асоціативного правила 

А-з» В . Важливими характеристиками асоціативних правил є підтримка (5иррогі) 

5ирр д-» в та достовірність (сопійдепсе) Соп/, ,з, які можна обрахувати за такими ви- 


разами: 
а (АОВУ аб 
ирра-в 
| уу (о) 
КАО ВУ 
Сопі дов Ру 119) 
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У випадку, коли Соп/д ,в - 1, асоціативне правило (17) є імплікацією, тобто вико- 
нується завжди, коли зустрічається передумова А. Значення 5иррд.,в характеризує 


і і й 
частку повідомлень 1 ух ) , яка містить ознаки А. В. Величина Соп/д ,в харак- 
теризує частку повідомлень з ключовими словами множини А, яка також містить 
ключові слова множини В. Актуальними для аналізу є правила з деяким заданим міні- 
мальним значенням достовірності та підтримки: 

Зиррд-»в ? ЗирРупіп (20) 


Соп/ дов 2 Сопбуур: (21) 


Асоціативні правила з умовами (20) - (21) називають частими та отримують з 
частої підмножини ключових лексем: 


Е с Кеуу/отаб, (22) 


де 0 - деякий поріг частої множини. 


Експериментальна частина 


Для реалізації експериментальних досліджень розроблено пакет прикладних про- 
грам на мові Регі. За допомогою цього пакету, використовуючи АРІ системи Тууійег, 
завантажено тестовий масив повідомлень, які містять ключове слово «5оЇомате», а також 
хеш-тег «Нвоїмаге». Тобто відібрано повідомлення заданого тематичного напряму, 
пов'язаного з програмним забезпеченням. Твіти з ключовим словом «50Йїмаге» заван- 
тажувались в період з 06.08.11 по 11.08.11. Загалом завантажено 75 977 твітів. Далі 
проведена фільтрація твітів і взято до розгляду лише лексеми, які повторюються не 
менше 10 раз і не більше 4000 раз. Наведемо приклади високочастотних лексем в 
порядку спадання частоти зустрічань: Я5оїомаге (3371), епеїпеег (3156), дФомпіоай (2615), 
щоб5 (2279), опійпе (2098), Би5іпе58 (1565), плзагкейпе, (1758), уптпаомуз (1751), демеіор- 
тепі (1704), демеіорег (1673), піапаєетепі (1525). 

Отриманий частотний словник містить 6325 лексем. Були відфільтровані високо- 
частотні стоп-слова, які не несуть семантичну інформацію. Знайдені часті множини 
термінів з підтримкою більше 10. До розгляду були взяті твіти, які містили не менше 
5 лексем. Також розглядались часті множини з кількістю термінів від 2 до 5. Отримано 
список з 2879 частих множин, які відповідають наведеним вище умовам. Для змен- 
шення кількості частих множин було збільшено мінімальну підтримку частих множин 
до 20. В цьому випадку кількість частих множин зменшилась до 1049. Наведемо деякі 
з них: | тапаєег, боб), ( сопприїег, уллпдаом8), (об, деуеїорег), | тісго5оїї, умутпдоуу58), 
Г5есипісу, іпіегпеї), ПооКіпе, Щоб), Гріауег, (гаїйс, уідео), (8сгірі, Ярпр), (5егуег8, ро5іпя.), 
Г5егуегз8, гетоїе, Фе5Кіор, по5ипе,), (5аЇагу, Яріппє, Їосайоп, об), |БІаскБегту, апагоїд). 

В аналізі розглядались решітки формальних концептів для семантичних полів 
різного розміру та змісту. Розглянемо твіти, в яких присутні лексеми такого найпрос- 
тішого семантичного поля 5: (Іопдоп, Іа, уліпадомуз, плісгозойї, апагоїй, янтубзаді, зсгіріз, 
Япих, Щоб, деуеіорег). У це семантичне поле включено географічні назви, операційні 
системи, хеш-тег Жіоб. Решітка семантичних концептів буде відображати взаємозв'язок 
цих понять в повідомленнях мікроблогів. Після фільтрації масиву вхідних повідомлень 
за наведеним семантичним полем отримано масив з 8920 твітів. Для розрахунку ре- 
шітки концептів та побудови діаграм Гассе був використаний пакет програм І айсе 
Міпег. На рис. 1 наведено діаграму Гассе, яка відображає утворену решітку семантич- 
них концептів для семантичного поля 5,. На цій діаграмі наведено зміст концептів 
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верхнього рівня. Змісти концептів нижніх рівнів є комбінаціями наведених змістів 
відповідно до зв'язків на діаграмі. 


а 


Рисунок І - Діаграма Гассе для решітки семантичних концептів 
семантичного поля 5! 


На рис. 2 виділено фільтр та ідеал для концепту (апагоїй, деуеіорег). Для кон- 
цептів наведено зміст та об'єм в процентах. Концепт інфімуму не наведено, оскільки 
він містить нульовий об'єм. 


апатії /, з 
219349 | з 
-в о | Чемеіорег 
417.0896 


77 Гапагоїй демеіорег Іопдоп. 
- ф ом 
Зоб апагоїій деувіорег 
0.0496 


Рисунок 2 - Порядковий фільтр та ідеал для концепту (апагоїй, деуеіорег) 


Табл. 1 містить приклади асоціативних правил та їх кількісні характеристики для 
наведеної на рис. 1 решітки семантичних концептів. 


Таблиця 1 - Асоціативні правила відфільтрованого за семантичним полем 5! 
масиву повідомлень 


Мо Передумова А Наслідок В Зирра в Сопів 
1 ПЕрпр| Гтуваді) 0,3390 223996 
2 Попаоп) щоб) 0,5890 20,47906 
3 Гщоб, апагоїд) Гдеуєеіорег) 0,049 50,09 
4 Гтубді, Ярпр| Гясгірі) 0,290 60090 
5 Піпих, плуз8ді) Гдеуєеіорег) 0,04 96 30,7690 
6 Гапагоїд, ІЇопдоп) Гдеуеіорег) 0,0190 100,090 
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Розглянемо інше, більш об'ємне, семантичне поле 5», яке складається з таких 
лексем та хеш-тегів: (|Япих, Жореп5ошгсе, апагоїд, Бгоуувег, сепіег, дгіуег8, еагіП, Іеаїиге5, 
з005і1е, ргеаїег, іп5гаї5, іпіегпеї, ірропе, Іаге5і, Іеадег, ппих, пек5саре, рропез, роршаг, ро- 
ууепиї, ргіпіег, заіе8, еЇетагкейте, (гаскіпе, пбипіш). 

Для цього семантичного поля отримано відфільтрований контекст, який містить 
46581 твітів. Розрахована решітка семантичних концептів, наведена на рис. 3. 


іегіетагкеїїпа | ігаскіпд 
гомивег| | ріопев| 


і і р рипіц! 
дімег5| | іпіегпеї| йорепзоцгсе с іпзіай|. дгеаїег| | апагоїй 
беаїцге5 ан жав чі рориіаг 


Рисунок 3 - Діаграма Гассе для решітки семантичних концептів 
семантичного поля 5» 


На рис. 4 показано зв'язки для концепту (апагоїад), які відображають його поряд- 
ковий фільтр та ідеал. Фільтр представлений лише концептом супремуму та самим 


концептом апагоїа). 


апдгоїд 
о-ви 17.89 


г ооо - що й пат 
-т еруеи 


- З, 

-внкттеттрудю еф а 

апагоїа Геаїшгез | ----- апдгоїй Іеачіег| | а я: 

0.0295 апагоїй бгомузег|. | 0.046 . | 22. 4 апагоїд рориіаг 
0.0696 са ій Іа 0.2396 


а 40, 
апдгоїй рпопез рорціаг 
01796 0.0296 


Рисунок 4 - Порядковий фільтр та ідеал для концепту (апагої4) 


Для наведеного вище семантичного поля 5» розраховано асоціативні правила, 
приклади яких наведено в табл. 2. 

Таблиця 2 - Асоціативні правила відфільтрованого за семантичним полем 5» 
масиву повідомлень 


Хо Передумова А Наслідок В Зирр ав Сопів 
1 ГНшпих | ГКореп5оигсе) 1,629 45,59 
2 Пеіетагкейтя | Гзае8 0,2190 83,3390 
3 Гргоуувег, іпіегпеї Гпеквсаре! 0,2190 55,9590 
4 Нпих, пбипій) ГКореп5оигсе) 0,149 46,6690 
) Гапагоїд, рориїіаг) Грропез) 0,179е 72. 1296 
6 ГНореп5оигсе, шбипій) ГНшпих | 0,1490 100,092 
б Грропез, роршаг) Гапагоїд) 0,179е 100,095 
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Серед наведених в табл. 2 правил можна виявити такі імплікації: 
Гореп5ошгсе, шбипій) 2» ІНитих |; (ріпопез, рориіаг) 2» Гапдгої) (23) 


Правила (23) є імплікаціями лише для відфільтрованого масиву твітів і в загаль- 


ному випадку повідомлень мікроблогів можуть не бути імплікаціями. 


Висновки 


Застосування теорії аналізу формальних концептів є ефективним в інтелектуальній 


обробці повідомлень мікроблогів. Використання моделі решітки семантичних концептів 
дає можливість аналізувати семантично зв'язані множини лексем та будувати асоціа- 
тивні правила. Формування семантичних полів на основі масиву виявлених частих 
множин дає можливість суттєво звузити пошук асоціативних правил та розмір ре- 
шітки семантичних концептів в алгоритмах інтелектуального аналізу текстів. 
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В.М. Раміузпепко 
Тпе Моає! ої 5етапіїс Сопсеріз Гапісе 
Гог РФаша Міпіпе ої Місгофіо?є5 


Тре пеодйя ої тодегп Чака паїпіпє, аге п5ед еНесйуєеїу іп У/еб сопіепі ге5оцгсе8 
ргосе8зіпе,. ТБе 5узіет ої тісгобіоєз Тулпімг 15 опе ої Пе тобі рориіаг Бог цп5ег8! іпіегасіоп 
мір Фе Пеїр ої 5погі плевзаєєз. Тре подеі ої 5ептапіїс сопсері Іакісе Їог Чака піпіпе, ої 
тісгобіоє5 Ба58 Бееп ргорозеай їп Фіз могкК. Й 15 5ПОм/п Шаї Ше иц5е ої фіз плодеі 15 еНесйує 
Гог Фе 5зетапіс геіанопз апаї!узіз апа їог Фе декесйоп ої аз5осіайує гиіе58 ої Кеумуогая їп Пе 
тісгобіоє5 птезкаєе5 апау. Бог Ше ехрегітепіа! ге5еагсі Ше расКаєе ої арріед ргостатя іп 
Фе Іапецаєе Регі раз Бееп Фемеїореай. У/їір Ше Реїір ої Шіз расКаєе апа и5іпе Ше АРІ ої 
"Тумійег Ше (е5і аггау ої плез5аєе5 Має сопіаїп Ше у/ога "50Йаге" апа Фе Рразп кає "Я 
5ойууаге" Ппа5 Бееп даомупіоадед. А 5ес ої Шеппайс пле5заєея аз5осіаїсд мій Ше 50Їаге 
Фетез Па58 Бееп 5еЇесіеа. ТПе Іакісе ої Гогтаї сопсеріз Гог Фе 5еплапіїс Пе!45 ої дїНегепі 517е 
апа сопіепі ра5 Бееп соп5ідегеай. ТРре (мееїз сопіаїпіпе, Їехетез ої дїНегепі зетапіс Пе! д5 
раме Бееп апаїузед. Тре 5етапіс сопсеріє Іайісе геПесі Ше іпіегасйоп ої сопсеріє іп 
тісгобіоє5 птез5аєея. Айег ППегіпє Ше агау ої іприі пеззаєєз Бу єїмеп 5еплпапіїс Пе!, Шеге 
ууа8 гесеїуей ап агау ої 8920 буееія. ТПе расКаєе ої ргосгатз І аїйсе Міпег аз пед їог 
саїсшіайпє Фе сопсері5 Іашшсе. Оп Фе Ба5і5 ої сопсеріз Іайісе Ше аз5осіайує гиіе5 Шаг 
терге5епі Ше геіайоп5 Бебмееп 5еплапіїс сопсерія ої апаЇуєед 5ибіесів рауе Бееп їошпа. Тре 
арріїсацоп ої Ше Шеогу ої Гогта! сопсері апаїузіз 15 еб'еспуе їп Ше ргосез5іпе ої іпіеПесша! 
тісгобіоє5 пез5аєєз. ТРе иц5е ої Іашсе тодеіз ої зетапіїс сопсеріз аПомує (0 апаЇу5е Ше 8еї5 
ої Іехетез5, Шаг аге зетпаписаПу геїакеа, апа (о сопзігисі аззосіайуєе гиіе8. Тре Гогтабоп ої 
зетапіїс Пе!дя Ба5ед оп Фе апау ої ідепийеай Педиепі 8еїз епабіез (0 пагпоуу 5ієпійсапіу Ше 
5еагср ої аз5осіайуе гиіе5 апа Іацсе 5і7е ої зептпапйс сопсері5я їп аЇєогійртл5 ої їех( тиіпіп?. 
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